热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

幻象_<技术向;修正昨天的爬取教程,并介绍一个插件

篇首语:本文由编程笔记#小编为大家整理,主要介绍了<技术向;修正昨天的爬取教程,并介绍一个插件相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了<技术向;修正昨天的爬取教程,并介绍一个插件相关的知识,希望对你有一定的参考价值。



昨天的代码有一部分需要修正一下,完整代码应该是这样:


from bs4 import BeautifulSoup
import re
import requests
url = "http://stuu.scnu.edu.cn/articles?paged="
def get_page(url):
   wb_data = requests.get(url)
   soup = BeautifulSoup(wb_data.text,lxml)
   titles = soup.select("div.bloglist-container.clr > article > div.home-blog-entry-text.clr")
   texts = soup.select("div.bloglist-container.clr > article > div.home-blog-entry-text.clr > p")
   imgs = soup.select("div.bloglist-container.clr > article > a > div > img")

   for title,text,img in zip(titles,texts,imgs):
      data =
         "标题":title.get_text(),
         
"摘要":text.get_text(),
         
"图片":img.get(data-original)
     

      print(data)

def getmorepage(start,end):
   for i in range (start,end):
       get_page(url+str(i))

getmorepage(1,10)


主要是将这条代码:

 "图片":img.get(src)

修改成:

 "图片":img.get(data-original)


如果我们仔细观察网页的代码,我们会看到其实它真实的链接在data-original里。如图(点击可以放大):



<技术向修正昨天的爬取教程,并介绍一个插件_加载 />



这样改后就能成功得到我们想要的信息啦:


<技术向修正昨天的爬取教程,并介绍一个插件_jquery_02 />


那之前那个结果是怎么回事呢?

这是因为这个网站的图片显示是一种Lazyload的方法,这是一个用来缓冲加载图片的方法,能够避免用户一次性加载太多图片耗费太多流量。这就是为什么昨天我们直接爬取src得到的是一张空图片。


Lazyload在WORDPRESS里是一个插件,实际上是用js写的一个脚本。如果是我们自己搭设的网站想要使用的话可以直接上网下载它的js文件,当然还要jquery库。


下面讲如何在自己搭建的网站上使用这个插件。

先把这个js文件和jquery.js放置到网站根目录的js文件夹下。


首先第一步,加载它们:




<script src="jquery.js" type="text/Javascript">script>
<
script src="jquery.lazyload.js" type="text/Javascript">script>


第二步,定义图片结构:


<img src="img/grey.gif" data-original="img/example.jpg" width="750" heigh="500">


第三步,触发并生效:


$("img.lazy").lazyload();


这样就能实现lazyload的基本功能,当然使用中你还会发现不少问题。

这些问题就需要网站开发者自行去解决了。




欢迎关注微信号:幻象客


<技术向修正昨天的爬取教程,并介绍一个插件_jquery_03 />


推荐阅读
  • 本文详细介绍了暂估入库的会计分录处理方法,包括账务处理的具体步骤和注意事项。 ... [详细]
  • PHP 编程疑难解析与知识点汇总
    本文详细解答了 PHP 编程中的常见问题,并提供了丰富的代码示例和解决方案,帮助开发者更好地理解和应用 PHP 知识。 ... [详细]
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • 郑州大学在211高校中的地位与排名解析
    本文将详细解读郑州大学作为一所位于河南省的211和双一流B类高校,在全国211高校中的地位与排名,帮助高三学生更好地了解这所知名学府的实力与发展前景。 ... [详细]
  • 深入理解 Oracle 存储函数:计算员工年收入
    本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程,并提供完整的代码示例。 ... [详细]
  • 优化ASM字节码操作:简化类转换与移除冗余指令
    本文探讨如何利用ASM框架进行字节码操作,以优化现有类的转换过程,简化复杂的转换逻辑,并移除不必要的加0操作。通过这些技术手段,可以显著提升代码性能和可维护性。 ... [详细]
  • 本文总结了2018年的关键成就,包括职业变动、购车、考取驾照等重要事件,并分享了读书、工作、家庭和朋友方面的感悟。同时,展望2019年,制定了健康、软实力提升和技术学习的具体目标。 ... [详细]
  • 电子元件封装库:三极管、MOS管及部分LDO(含3D模型)
    本资源汇集了常用的插件和贴片三极管、MOS管以及部分LDO的封装,涵盖TO和SOT系列。所有封装均配有高质量的3D模型,共计96种,满足日常设计需求。 ... [详细]
  • 在计算机技术的学习道路上,51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域,51CTO学院始终是我信赖的学习平台。 ... [详细]
  • CSS 布局:液态三栏混合宽度布局
    本文介绍了如何使用 CSS 实现液态的三栏布局,其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性,可以实现灵活且响应式的网页设计。 ... [详细]
  • 本文详细介绍了如何使用PHP检测AJAX请求,通过分析预定义服务器变量来判断请求是否来自XMLHttpRequest。此方法简单实用,适用于各种Web开发场景。 ... [详细]
  • 小红书提高MCN机构入驻门槛,需缴纳20万元保证金
    近期,小红书对MCN机构的入驻要求进行了调整,明确要求MCN机构在入驻时需缴纳20万元人民币的保证金。此举旨在进一步规范平台内容生态,确保社区的真实性和用户体验。 ... [详细]
  • Linux 系统启动故障排除指南:MBR 和 GRUB 问题
    本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案,涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]
  • 动物餐厅高效获取小鱼干攻略
    本文将介绍2023年动物餐厅中快速赚取小鱼干的有效方法,帮助玩家更轻松地积累资源。 ... [详细]
  • This guide provides a comprehensive step-by-step approach to successfully installing the MongoDB PHP driver on XAMPP for macOS, ensuring a smooth and efficient setup process. ... [详细]
author-avatar
摩羯参议院1314
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有